查看原文
其他

超快组装软件的使用--hifiasm软件

生信阿拉丁 生信阿拉丁 2022-05-16

点击上方关注我们获取更多




背景


三代组装常用的软件有canu、Falon、WGTBG及SmartDenovo等。canu软件的优点是组装的准确度高、连续度表现优秀的概率高,缺点是速度比较慢;而WTDBG软件运行速度快、但是对重复序列比较敏感,对简单基因组组装效果较好,Falon比较合适一定的杂合基因组组装。而最近发布出来的hifiasm,可以在一周内完成超大基因组的组装,极大的降低了整体的分析时间。

加州红杉的相关数据如下:

服务器配置:64核 512Gb RAM

生成HiFi数据:46,000 CUP hours

基因组组装:7,200 CUP hours, 总共分析时间6天

为了进一步的了解这个软件的使用,我们下载了相关ccs的数据进行组装的测试。



01

软件原理

Hifiasm使用的是Pacbio的Hifi序列,基于单倍性的快速组装工具。不同于目前大多数软件,hifiasm在组装中尽可能的保留了多的单体型信息。

对于非trio家系的组装,输入的是hifi的序列(fastq或者fasta格式),而对于trio家系的组装,除了需要hifi序列外,还需要父亲、母亲的index文件(可以使用yak来生成)。



02

软件安装

1# Install hifiasm (requiring g++ and zlib)
2git clone https://github.com/chhylp123/hifiasm
3cd hifiasm && make
4# Assembly
5./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz



03

测试数据下载

从GIAB上下载pacbio的数据。GIAB是一个标准品的数据,里面包含了各种测序平台的数据,正好可以拿来作为测试数据。

路径为: ftp://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/PacBio_SequelII_CCS_11kb/

由于下载下来的是bam格式,需要转换成fasta格式。

samtools view *.bam | awk '{print ">"$1"\n"$10}' > fasta



04

软件参数说明


1 ./hifiasm 
2Usage: hifiasm [options] <in_1.fq> <in_2.fq> <...>
3Options:
4    -o FILE       prefix of output files [hifiasm.asm]
5    -t INT        number of threads [1]
6    -r INT        round of correction [2]
7    -a INT        round of assembly cleaning [4]
8    -k INT        k-mer length [40] (must be < 64)
9    -i            ignore saved overlaps in *.ovlp* files
10    -z INT        length of adapters that should be removed [0]
11    -m INT        size of popped large bubbles for contig graph [10000000]
12    -p INT        size of popped small bubbles for haplotype-resolved unitig graph [100000]
13    -n INT        small removed unitig threshold [3]
14    -x FLOAT      max overlap drop ratio [0.8]
15    -y FLOAT      min overlap drop ratio [0.2]
16    -v            show version number
17    -h            show help information
18Example: ./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz
19See `man ./hifiasm.1' for detailed description of these command-line options.

其中常用的为:

-o :输出文件的前缀

-t:线程数

-k:kmer数

-z :adapter的长度



05

软件使用

hifiasm -t 32 -o hifi fasta

-t 线程数目

-o 结果前缀



06

结果说明

prefix.r_utg.gfa (Haplotype-resolved raw unitig【2】 graph in GFA【3】 format):该结果文件保留组装生成的所有单倍型信息包括体细胞突变,测序错误。

prefix.p_utg.gfa (Haplotype-resolved processed unitig graph without small bubbles ):对上面raw unitig 进行过滤,去掉由于体细胞突变和数据背景噪音引起的small bubbles(这个并不是真正的单体型信息),对于高度杂合基因组物种优先选择这个结果。

prefix.p_ctg.gfa (Primary assembly contig【4】 graph):this is the preferred output for inbred strains or human,对于低杂合度物种来说,优先选择该文件;对于高杂合度物种,该结果代表其中一个单倍型。

prefix.a_ctg.gfa (Alternate assembly contig graph):组装出来的另一套单体型基因组结果。

prefix.ec.fa :Haplotype-aware error corrected reads in fasta format

prefix.ovlp.paf :All-to-all overlaps in the PAF【5】 format



07

结果测评


  • 将hifiasm 组装 gfa 结果 转成 fasta

perl hifi2fa.pl ctg/utg.gfa outfile

  • hifiasm 组装结果 fa N50评估

组装结果大小3.2G,和已知人基因组结果一致 N50:19M。


注意事项

  • 投递内存设置 :数据量100G 时建议投递1.5倍大小 100 *1.5= 150G内存。如果遇到内存报错,可按照3倍数据量大小内存设置进行投递。

  • hifiasm 组装:通过比较发现,减小bubbles 的大小,会明显提升组装的速度,组装结果N50会降低。从准确度考虑,建议使用默认参数,增加线程数目。

END



reference

  • https://github.com/chhylp123/hifiasm

  • unitig(http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology)

  • GFA(https://github.com/pmelsted/GFA-spec/blob/master/GFA-spec.md)

  • contig(http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology)

  • PAF(https://github.com/lh3/miniasm/blob/master/PAF.md)


作者:童蒙

编辑:amethyst

◆ ARGO-工作流部署与管理工具◆ 全长转录本的鉴定◆ DNA-RNA互作检测技术ORF的前世今生植物泛基因组的染色体重排的量化研究


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存